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Resumo: Este artigo objetiva a compreensão da análise de agrupamento uma das técnicas 
multivariadas aplicadas à Ecologia, bem como a demonstração didática das suas principais 
características e finalidades com apoio do Software PAlleontological STatistics na versão 
3.14. Por meio de uma matriz de dados é possível gerar um dendrograma pelo método de 
Ward e interpretar as informações contidas nele. 
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Hierarchical Cluster Analysis 
applied to Ecology - Theory and Practice 


Abstract: This article aims at understanding the grouping analysis of one of the multivariate 
techniques applied to Ecology, as well as didactic demonstration of it's main characteristics 
and purposes with the support of PAlleontological Software STatistics in version 3.14. 
Through a data matrix it is possible to generate a dendrogram and interpret the information 
contained in it. 


Keywords: multivariate techniques, cluster analysis, cluster. 


Introdução álgebra e na geometria. Apesar das 


A estatística é uma grande 
ferramenta para análise e interpretação de 
dados relevantes e aplicáveis que 
transcendem as ciências exatas, entretanto 
percebe-se que há a falta de materiais 
didáticos para as outras áreas científicas. 
De acordo com Vicini (2005) as 
multivariadas são consideradas técnicas 


matemáticas, pois fundamentam-se na 
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técnicas multivariadas terem surgidas a 
partir de 1901, apenas com o avento da 
tecnologia foi possível realizar com 
rapidez e clareza os gráficos que 
possibilitam estudar o inter-relacionamento 
das variáveis. Algumas técnicas têm 
caráter exploratório, multidisciplinar e são 
utilizadas para interpretar um ou mais 


conjuntos de dados estruturados, 
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possibilitando a compreensão relações 
entre as variáveis em estudo, bem como a 
observação dos dados de uma outra 
perspectiva. 

As análises estatísticas aplicadas à 
Ecologia utilizam um grande número de 
informações. Dentre elas destacam-se as 
informações sobre as características 
físicas, bióticas e socioeconômicas. A 
interpretação entre as características 
ambientais e seus componentes bióticos é 
outro tipo de análise muito comum neste 
tipo de estudo. Dentre as técnicas destaca- 
se a análise de agrupamentos, também 
conhecida como análise de Cluster porque 
é uma das mais simples, é menos exigente 
em relação às características dos dados, e 
por causa disso a mais utilizada em 
pesquisas ecológicas. (VICINI, 2005; 
BARRELLA, 1992). A análise de 
agrupamentos utiliza o valor das variáveis 
para montar um dendrograma que agrupa 
amostras e ou variáveis em classes, 
destarte, objetos semelhantes se encaixam 
na mesma classe reduzindo, então, os 
dados. (MANLY; NAVARRO 
ALBERTO, 2016). 

A principal dificuldade encontrada 
foi a linguagem técnica do programa, para 
compreender, gerar o dendrograma e 
efetuar a análise, antes de tudo foi 
necessário realizar a tradução dos 


principais itens do mesmo e leituras 
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complementares para facilitar a 
interpretação e análise das principais 
características do agrupamento. 

Sendo assim, o objetivo deste 
trabalho é compreender a análise de 
agrupamento uma das técnicas 
multivariadas aplicadas à Ecologia, bem 
como demonstrar didaticamente as suas 
principais características e finalidades com 
apoio do Software PAlleontological 
STatistics na versão 3.14, bem como 
discutir as suas principais dificuldades de 


interpretação destes resultados. 


2 - Materiais e Métodos 
Para realizar as análises de 
agrupamentos foi necessário utilizar um 
conjunto de dados ecológicos organizados 
em uma planilha do Microsoft Excel 
(versão 2016) para a tabulação dos dados e 
o software PAlleontological STatistics 
(versão 3.14) para a elaboração dos 
gráficos. A matriz de dados ecológicos é 
meramente ilustrativa. O procedimento 
metodológico consistiu em uma tradução 
parcial das informações mais relevantes 
disponibilizadas no software para a 
compreensão da análise de agrupamento 
hierárquico aglomerativo, ou seja, Cluster 
Analysis. 
Segundo Manly e Navarro (2016) 
já foram propostos diversos algoritmos 


para realizar a análise de cluster e um deles 
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é a técnica hierárquica, onde há produção 
de um dendrograma, esta ferramenta se 
baseia na distância calculada de cada 
objeto para todos os outros objetos e para 
os grupos formados respectivamente, neste 
caso, se baseando na aglomeração. Neste 
item, os objetos da análise se iniciam 
sozinhos e são, gradualmente unidos até 
que eles estejam, finalmente, em um grupo 
único. Mesmo com a gama de algoritmos 
para se realizar a análise de cluster, como 
mencionado anteriormente, não há um 
consenso de qual método seria melhor 
aceito, porém diversos algoritmos 
produzem resultados diferentes para a 
mesma matriz de dados e cada qual com 
sua particularidade levando a 
dessemelhança na leitura dos 


dendrogramas, mesmo com a mesma base 


de dados. Assim, o melhor mesmo é fazer 
a prova e a contraprova comparando uma 
estrutura de grupos semelhantes já 
conhecida e analisar se tal análise é capaz 
de reproduzir a mesma estrutura para os 


dados não conhecidos. 


3 - Resultados e Discussão 
3.1 - Trabalhando Análise de 
Agrupamento Hierárquico com o PAST 
passo a passo: 

Ao copiar a planilha do Excel e 
colar na planilha do PAST, é preciso 
salientar que para trabalhar nas próximas 
etapas todos esses dados deverão ser 
selecionados. Para selecionar a planilha no 


PAST clique com o botão esquerdo do 


mouse na célula em branco em destaque 


(figura 1); 





Figura 1 — Botão em branco de seleção completa. 


Outra opção é clicar em Selecionar 
tudo, em seguida pressionar o botão colar, 


conforme destacado pela lupa na figura 2 
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Figura 2 — Botões Colar e Selecionar Tudo, respectivamente. 


Utilizando esses métodos de 
colagem, é possível obter o conteúdo do 
Excel e de outros softwares com 
funcionalidades semelhantes. Vale 
ressaltar que o Past não serve apenas para 
copiar e colar, você pode criar planilhas 
utilizando-o diretamente. Para melhor 


organização dos 


Mostrar 
[C Atributos da linha 
[C] Atributos da coluna 


dados da planilha o Past 
disponibiliza duas ferramentas: “Atributos 
de linha” e “Atributos de colunas”, que 
podem ser observadas no canto superior 
esquerdo dentro da seção “Mostrar”, como 


mostra na figura 3; 





Figura 3- Os atributos da seção “Mostrar”. 


Essas duas funções são utilizadas 
respectivamente para atribuir títulos as linhas e 
as colunas. Quando a função “Atributos de 
linha” é ativada obteremos a seguinte alteração 
no layout; a adição de três colunas , sendo elas 


“Color” (Cor), “Symbol” (símbolo) e “Name” 
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(Nome). A opção “Color” altera as cores 
do “Symbol”; a adição de “Symbol” permite a 
integração dos símbolos ou imagens dentro das 
coordenadas do gráfico; enquanto a adição de 
“Name” admite o nome da primeira coluna. 


Como mostra a figura 4. 
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[V] Atributos da linha 





Figura 4 — Atributos da linha. 


Se a função “Atributos de coluna” 
for selecionada a alteração no layout será a 
inserção de duas linhas “Type” (Tipo) e 
“Name” (Nome), onde “Type” permite a 


escolha do tipo de informações contidas na 


Atributos da coluna 


linha (grupo, ordinal, nominal ou binário); 
enquanto o “Name” como a função 
“Atributos da linha” admite o nome, porém 
da primeira linha ao invés de coluna em 


conformidade com a figura 5. 





Figura 5 — Atributos da coluna. 


Para gerar o dendrograma foi 
utilizado a tabela 1, cujo representa uma 
planilha Excel, estruturada com dados 
ilustrativos, sendo dividida em uma matriz 
11 x 40. Algumas particularidades devem 


ser observadas, como por exemplo, se 


houver a ocorrência de grupamentos 
anormais uma investigação entre as 
relações deve ser realizada e também os 
exclusivamente 


NAVARRO 


dados devem ser 
numéricos (MANLY; 
ALBERTO, 2016). 


EEE RR RR IGT RTYWTYTYTYYSTRRTZCCCRTTRUUIIPTTT FETEA 
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Tabela 1 — Dados ecológicos utilizados para as análises realizadas nesse estudo. 






























































































































































Amostra | Sexo Eras Naturalidade | Domiciliado o ro pg ed B e paa so 
(anos) filhos trabalham | trabalho 
1 1 3 1 3 1 15 4 4 3 4500 250 
2 1 1 2 3 1 40 4 6 0 600 0 
3 1 2 2 3 1 21 4 0 0 300 100 
4 1 2 1 3 1 2 4 0 0 500 280 
5 1 1 2 3 1 50 4 8 0 600 210 
6 1 2 2 3 1 7 11 0 0 500 0 
7 1 2 1 3 1 12 4 0 0 0 0 
8 1 2 1 2 1 31 4 1 0 0 0 
9 1 1 1 3 1 50 0 2 1 0 220 
10 1 3 1 3 1 32 3 2 2 350 0 
11 1 1 1 1 15 0 4 0 150 0 
12 1 1 1 3 1 20 8 3 0 1000 0 
13 1 2 2 3 1 7 4 0 0 300 0 
14 1 1 1 3 1 40 0 F: 6 200 0 
15 1 1 2 3 1 12 3 3 0 100 0 
16 1 1 1 3 1 25 0 4 2 50 0 
17 1 2 2 3 1 10 4 0 0 600 0 
18 1 2 1 3 1 9 5 0 0 600 0 
19 1 2 1 3 1 10 5 0 0 500 0 
20 1 1 1 3 1 13 5 1 1 250 0 
21 1 1 2 3 1 28 6 2 1 100 0 
22 1 1 1 3 1 15 3 1 0 300 0 
23 1 2 1 3 1 10 5 0 0 100 0 
24 1 2 1 3 1 20 3 0 0 500 0 
25 1 2 2 2 1 2 8 1 0 150 0 
26 1 2 2 3 1 20 7 0 0 150 0 
27 1 1 2 3 1 11 7 0 0 50 0 
28 1 4 1 3 1 54 0 7 2 60 0 
29 1 1 1 3 1 22 3 4 2 600 0 
30 1 2 2 2 1 0 3 0 0 600 0 
31 1 2 1 3 1 10 4 0 0 600 0 
32 2 1 2 1 1 0 1 3 2 1000 0 
33 1 2 2 3 1 1 > 0 0 350 0 
34 1 2 2 3 1 10 3 2 0 350 1500 
35 1 2 2 3 2 10 3 0 0 50 0 
36 1 2 1 3 1 19 2 0 0 50 0 
37 1 4 1 3 1 48 0 3 1 400 0 
38 1 1 1 3 1 6 0 1 0 0 0 
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Para qualificar os dados utilizou-se os 
critérios para sexo: 0 masculino e 1 
feminino; estado civil: 1 solteiro, 2 união 
estável, 3 casado e 4 viúvo; naturalidade: 0 
mora onde nasceu e 1 veio de outra região; 
domiciliado: 1 (1 a 5 anos), 2 (5 a 10 anos) 
e 3 (mais de 10 anos); profissão do pai: 0 
pescador e 1 outra profissão; formação 
acadêmica: 1 (1º); 2 (2º) [...] 8 (8º) série do 
ensino fundamental; 9 (1), 10 Q) e 11 


(3º) série do ensino médio. São códigos 
binários e semi quantitativos. Para o tempo 
de trabalho, formação acadêmica, 
quantidade de filhos, renda com trabalho e 
outras rendas temos os dados quantitativos. 

Com o Past aberto, e o seu texto 
completamente selecionado, vá até a barra 


de navegação >  Multivariada > 


Agrupamento > Clássico. (Figura 6) 





Figura 6 — Aplicando a técnica multivariada. 


Estudiosos concordam que as técnicas 
multivariadas simplificam a estrutura dos 
dados, por meio de transformações de um 
conjunto de variáveis interdependentes em 
outro conjunto de variáveis independentes e de 


menor dimensão, também classificam as 
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amostras, indivíduos ou variáveis em grupos 
com características semelhantes. Assim é 
possível analisar a interdependência entre as 
variáveis e formular e testar hipóteses. 


(BARRELLA, 1992) 
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A análise de agrupamento tem como 
objetivo a classificação de grupos de objetos 
semelhantes, afim de reduzir o número de 
objetos para um número menor de grupos. A 
desvantagem é que os resultados dependem da 
medida escolhida e do algorítimo utilizado. 
(JAMES; MCCULLOC, 1990) 

Na figura 6, o algorítimo selecionado é 
o Método Ward”s, porque é um dos métodos 
de variância que gera grupos minimizando o 
quadrado da distância euclidiana às médias dos 
grupos. Um grupo é unido a outro 
proporcionando o menor aumento de variância 
intragrupo. 

Assim, calcula-se então para cada 
objeto, o quadrado médio de distância 
euclidiana no agrupamento; logo obtem-se a 
somatória de todos os objetos. Para cada etapa 
combina-se os dois grupos que apresentam 
menor variância entre si. Esse método é 
recomendado, pois é altamente eficiente na 
junção de grupos. (VICINI, 2005). 

Ainda Vicini (2005), a distância 
euclidiana é uma das mais utilizadas à análise 
de agrupamentos, porque considera dados 
simples de uma matriz e o cálculo dar-se-a 
mediante o teorema de Pitágoras. No que tange 
a distância entre dois indivíduos é calculada 


pela seguinte fórmula: 


p 
i 
diir = Ds -xj 3 
j=1 


Enquanto a distância média euclidiana 
entre dois agrupamentos é formada pela 


seguinte equação: 
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p 2 
d= X (= zen 
ja Xij 


O índice de similaridade euclidean 
aplicada a matriz de dados inicial apresenta o 
coeficiente cofenético 0,8411. (Figura 6) 

Após a confirmação teremos o 
gráfico simples (dendrograma) conforme 
figura 7. A problemática é como identificar 
quais são as semelhanças entre esses 
indivíduos? É possível identificar no eixo 
horizontal superior os 40 individuos 
nomeados de 1 a 40 e no eixo vertical a 
enumeração de uma das caracteristicas 
comum entre eles, neste caso a renda que 
varia entre 50 a 5000. Sendo assim, os 
grupos são formados de acordo com o 
conjunto de particularidades similares 
entre os individuos. 

Ainda na figura 7 é possível 
observar que o indivíduo Al possui 
dessemelhança em relação aos demais, 
seguidamente de dois grandes grupos: um 
com mais indivíduos semelhantes e outro 
com menos. 

Logo ao meio do dendrograma é 
notável a formação de dois grandes grupos, 
de acordo com a nossa tabela de dados é 
possível observar que o sexo masculino 
predomina e o estado civil casado também 
é significativamente relevante entre os 
indivíduos observados. E assim segue as 


interpretações. 
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Figura 7 — Dendrograma: Método Ward”s — Índice de Similaridade Euclidean Constrangido. 


Visto o exposto, a análise de 
agrupamento hierárquico aglomerativo 
(Cluster) foi desenvolvida para resolver 
problemas práticos de classificação de 
indivíduos, amostras, locais, espécies, etc. 
(Barrella, 1992). Entretanto é necessário 
conhecer o conjunto de dados utilizados 


para auxiliar na interpretação dos mesmos. 


Conclusão 

A técnica de aglomeramento 
hierárquico aglomerativo é utilizada na 
construção deste artigo e aborda o método 
ou algoritmo de Ward, uma forma dentre 


os demais métodos de reunir os grupos 
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proporcionando a menor variância entre 
eles. 

Com o auxílio do software Past é 
possível gerar um dendrograma simples 
contendo as informações individuais 
condensadas em grupos, assim permite a 
análise dos dados com mais precisão e 
acurácia. 

Por fim, este artigo sugere novas 
pesquisas complementares com o objetivo 
de implementar e disseminar a produção 
técnica e didática para facilitar a 
compreensão e aplicação das técnicas 


multivariadas meio científico ecológico. 
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